TTS. Требования к записи речи для синтеза голоса

Оцените материал

(1 Голосовать)

Требования по качеству звука обычно очень высоки. Приведем общие характеристики, применяемые при озвучивании текста для голосового синтеза.

Основные характеристики записи голоса для TTS

Параметры оцифровки (звукозаписи), определяющие качество фиксации звука

1. Частота дискретизации (влияет на точность фиксации звука): 41000Гц, 48000Гц, 88000Гц, 88000Гц и т.д.

2. Разрядность (влияет на снижение уровня шума): 16 бит, 24 бит, 32 бит.

3. Количество каналов: моно.

4. Звуковой формат: WAVE.

5. Фоновый шум, который присутствует во время записи голоса, должен быть минимальным. Есть два типа фонового шума:

Шум звукового тракта

- Шум, который создают: звуковая карта, т.е., ее АЦП (Аналого Цифровой Преобразователь), микрофонный предусилитель, наводки на коммутацию и звуковое оборудование от внешних электрических устройств, таких как мобильная связь, «Bluetooth» и «Wi-Fi» сигналы, мобильная связь, микроволновые печи. А так же абсолютно любые бытовые приборы, такие как холодильники, электробритвы и т.п., и шум электрической сети, в который могут попасть даже те помехи, которые контролировать невозможно, например, в электрическом сигнале могут оказаться следы работы пылесоса у соседей. Всё это суммируется и создаёт шум звукового тракта.

Шум через микрофон

- Шум, который попадает в запись через микрофон - работающий системный блок, система притока воздуха в студию, окружающая среда, находящаяся вне пределов звукозаписывающей комнаты (офис, соседи, улица и т.д.). Всё что звучит в пространстве, улавливается микрофоном и накладывается на шум звукового тракта.

6. Громкость речи. Громкость речи и шум имеют прямое отношение друг к другу. Они тесно взаимосвязаны. По сути, технически, громкость речи и шум - одно и тоже, т.е. с точки зрения преобразования звука из аналога в цифру и наоборот, природа шума, как и природа речи абсолютно идентичны. И речь, и шум - это звук, который техника оцифровывает (записывает). Это человек способен отличить, что есть шум, а что есть речь.

Так вот, одна из задач, которые ставятся перед записью речи - чтобы разница между уровнями шума и голоса была как можно больше. Обычно к записи голоса для TTS предъявляются требования выдерживания уровня громкости речи в диапазоне значений -5db с кратковременным максимальным значением -1db и с кратковременными минимальным значением -15db. А уровень шума не более -60db, т.е., чем больше отрицательное значение (получается снижение уровня шума), тем лучше.

Вот как в звуковом редакторе отображается волна с нормальным уровнем голоса (соответствие определяется по шкале слева):

Изображение звуковой волны с нормальным уровнем голоса при записи речи для синтеза голоса в TTS

Звукоизвлечение в TTS (произношение для голосового синтеза)

Читая тексты, предназначенные для TTS, обнаруживаются фразы, которые могут показаться некорректно сформулированными. Не стоит обращать внимание на такие фрагменты, ведь по существу, эти фразы не будут использоваться в таком виде, т.е. все фразы расщепятся на «атомы» (фонемы) и из этих фонем потом будет составляться новый текст. Поэтому, главное, на что следует обращать внимание:

1. Правильная артикуляция без ошибок в прочтении и расстановке пауз.

2. Естественная речь без придыханий и утрирований.

3. Отсутствие щелчков из-за слюны

Появление щелчков – неприятный артефакт, который может напрочь испортить запись звука для TTS. Полость рта при чтении текста не должна быть пересушена, это вредно для голосовых связок, но и не должна быть слишком влажной. Щелчки образуются исключительно в полости рта при соприкосновении сухой слизистой со слюной. В идеале – связки должны быть более влажными, а полость рта менее.

Без достаточного опыта работы со звуком щелчки достаточно сложно услышать, ведь они коротки, часто негромки и всегда маскируются под полезный сигнал речи. Но мы имеем достаточный опыт прослушивания записи дикторского голоса. Достаточный для того, чтобы подловить этих мелких «выскочек»!

Щелчки от слюны, возникающие при смыкании сухой слизистой со слюной на языке, могут появляться в паузах между словами и в тихих фрагментах между слогами. Это несложный случай для избавления от них на этапе редактирования записанного звука.

Гораздо сложнее удалять щелчки, когда они маскируются под свистящими и шипящими согласными и тем более, на фоне гласных.

При анализе звуковой волны с наличием щелчка от слюны, можно заметить, что щелчок на гласном звуке отображен как тёмный фрагмент на светлом. Посмотрите, на рисунке фрагмент с появлением щелчка от слюны:

фрагмент с появлением щелчка от слюны на звуковой волне при записи речи для TTS

Удаление таких фрагментов появления щелчка на фоне гласного звука потребует осуществить небольшую реставрацию звука.

К слову о реставрации – мы реставрируем звук не только от щелчков, но и от самых разных артефактов. Пожалуйста, коль скоро вы пожелаете заказать реставрацию звука и захотите изучить это тему более подробно, почитайте описание услуги «Реставрация звука».

4. Не допускать резких потоков воздушной струи от смычно взрывных согласных. Для решения этого момента мы делаем следующее:

Используем поп-фильтр (идеальное решение, в принципе, обязательное)
Контролируем смычно-взрывные согласные при произношении
Чуточку отдаляемся от микрофона на таких фрагментах.

Тут стоит отметить два момента.

Первое:

Поскольку приближение/отдаление относительно микрофона при записи текстов для TTS в принципе недопустимо (что главным образом относится к записи фрагментов с целыми словами и предложениями), отдаление будет применено лишь на критическом фрагменте, без воздействия на остальные части предложения.

И второе:

Если при установленном поп-фильтре получается слишком много искажений от произношения смычно-взрывных согласных, это важный сигнал, что микрофон установлен слишком близко (поп-фильтр не справляется с блокировкой воздушной струи). Мы расположимся чуть подальше от микрофона и выверим количество случающихся артефактов еще до начала записи всего текста (т.к. такая смена расположения микрофона на любом этапе записи текста для TTS критически недопустима).

И да, это палка о двух концах:

С одной стороны, при близком расположении к микрофону, улучшается параметр «сигнал/шум», т.е., громкость речи высока, а громкость фонового шума низка, но при этом возникает слишком много артефактов от произношения смычно-взрывных и более того, могут возникнуть и другие нежелательные изменения в звучании.

И с другой стороны, при отдалении от микрофона, количество искажений от смычно-взрывных на порядок снижается, но ухудшается показатель «сигнал/шум».

Поэтому, если есть хороший запас по отношению полезного сигнала к шуму мы заранее просто отдалимся от микрофона. Не зря улучшение показателя «сигнал/шум» добивается любая студия звукозаписи. Выверим все параметры, зафиксируем оптимальное расположение, и приступим к записи текста для TTS.

В результате бесконтрольного произношения смычно-взрывных согласных, воздушная струя, попадая в микрофон, искажает звук, как показано на рисунке:

Воздушная струя, попадая в микрофон, искажает звук - анализ звуковой волны для синтеза голоса

5. Ни в коем случае недопустимо ограничение пиков (clipping peak/cut ridge):

недопустимо ограничение пиков (clipping peak/cut ridge) при записи голоса для синтеза речи в TTS

Для недопущения артефактов отсечения звуковой волны, мы будем придерживаться ровного звучания с контролем шипящих и свистящих согласных, ведь именно они могут приводить к таким искажениям. Если исследовать звуковую волну с ровным звучанием, но при этом с обилием отсечений, то можно заметить, что отсечения происходят именно на свистящих и шипящих согласных и, конечно же, на смычно-взрывных, с которыми впрочем, мы уточнили способ, как будем бороться. Такой же способ действует и в отношении артефактов ограничения волны.

Если при условии использования поп-фильтра и при достаточном отдалении от микрофона у нас всё равно имеется ограничение волны, мы просто снизим уровень входящего сигнала на предусилителе микрофона до приемлемого уровня. Это не только приведет уровень записи голоса к приемлемому знаменателю, но и значительно снизит уровень шума звукового тракта, что даст хороший показатель «сигнал/шум».

И мы тут же попросим вас поздравить нас, ведь это будет означать, что у нас просто отличные студийные условия записи речи!

6. Должны отсутствовать фоновые помехи и различного рода шумы, такие как: шуршание одежды, посторонние голоса, удары о стойку микрофона, звуки улицы и т.д.

7. Не следует акцентировать какие-либо отдельные слова, как это делается при прочтении обычных текстов.

8. Интенсивность речи, динамика и темп должны быть едиными от фразы к фразе, т.е. не должно быть никаких различий, скажем, между первой фразой и сотой и т.п.

9. Расстояние до микрофона должно быть всегда одинаковым. При записи обычных текстов небольшие приближения/отдаления от микрофона придают звуку некоторое разнообразие, интересность и равномерность уровня громкости речи, а так же, это может передавать драматичность чтения, к примеру, на повышении динамики речи от шепота к крику можно отдалить голову и отвести в сторону и наоборот. Однако в случае с TTS это недопустимо – нельзя ни отдаляться от микрофона, ни приближаться к нему, ни поворачивать голову в стороны!

10. Запись для TTS невозможно сделать, что называется в один заход. Понадобится много сессий записи, каждая из которых должна производиться в абсолютно идентичных условиях – никаких изменений в звучании голоса (тональность, темп, тембр), никаких изменений в размещении микрофона, никаких изменений в посадке перед микрофоном, никаких изменений в настройке оборудования (коммутация, настройки микрофонного предусилителя и самого микрофона) и т.д.

11. Фразы обычно читаются, согласно знакам препинания, но не следует слишком интонировать, например, на таких экспрессивных знаках, как знак вопроса или восклицательный знак. Допустимо лишь весьма легкое обозначение интонацией.

Примеры озвучивания для голосовых движков:

W_3_SINTEZ_1

PLAY

PAUSE

STOP

M_1_SINTEZ_1

PLAY

PAUSE

STOP

W_4_SINTEZ_1

PLAY

PAUSE

STOP

M_1_SINTEZ_2

PLAY

PAUSE

STOP

Пожалуйста, почитайте об услуге озвучивания голосовых баз для синтеза голоса

С наилучшими пожеланиями не прикусить язык!

И спасибо, если поделитесь статьей.

Дополнительная информация

Прочитано 776 раз

Теги

Наверх

Новинки в блоге

Купон на покупку лицензионной музыки для коммерческого использования

Это не первоапрельские шутки! А экономия в 40%!

До 1 Апреля 2023 года введите купон PRO2023MAR и получите скидку на лицензионную музыку для коммерческого использования. Например, вместо 300р вы платите 180р.
Корпоративное видео. Объясняющие видео

Как бы четко ни был выстроен весь процесс, как бы объективно и максимально подробно ни были раскрыты все детали оказания услуг или использования продукции, всегда наступает такой момент, когда понадобится вносить дополнительные комментарии и разъяснения.
Корпоративное видео. Закулисные видео

Что скрыто за ширмой бренда и рекламных лозунгов компании? Наверняка, в процессах любой компании есть нечто интересное, о чём можно снять интересное видео и рассказать увлекательную историю.
Корпоративное видео. Видеодемонстрация ответственности

Этика компании в отношении к клиентам, сотрудникам, в ведении бизнеса во многом определяет уровень доверия бренду.
Корпоративное видео. Вербовочное видео

Пожалуй, поиск подходящего сотрудника, как и поиск клиента, важная задача для компании. Однако самая главная проблема, с которой сталкивается компания при размещении вакансии – неподходящие отклики соискателей.

Создание аудио и видео рекламы. Работа как с отдельными элементами рекламы (текст, голос музыка, изображения, видео...) так и "Под ключ".

Читать

TTS. Требования к записи речи для синтеза голоса

Основные характеристики записи голоса для TTS

Параметры оцифровки (звукозаписи), определяющие качество фиксации звука

Шум звукового тракта

Шум через микрофон

Звукоизвлечение в TTS (произношение для голосового синтеза)

Первое:

И второе:

И да, это палка о двух концах:

Примеры озвучивания для голосовых движков:

Дополнительная информация

Популярное в блоге

Варианты услуги:

Новинки в блоге

Акция на музыку